Proyectos MCDI 2025-1

Eric S. Téllez

INFOTEC sede Aguascalientes, Ags.

Búsqueda por similitud

Problema

Base de datos y consulta

Preprocesamiento

  • Indexamiento y búsqueda para \(k\) vecinos cercanos.
  • Determinación de los pares más cercanos y los \(k\) centros más alejados.
  • Construcción de grafos de \(k\) vecinos.

Aplicaciones

  • Recuperación densa (dense retrieval): Búsqueda de documentos a partir de consultas que no necesariamente se parecen léxicamente pero si semánticamente.
  • Búsqueda multimodal: Búsqueda de video o imágenes por medio de texto usando descripciones del contenido.
  • Generación aumentada por recuperación: Conocida como Retrieval Augmented Generation o (RAG), la idea es reducir alucionaciones de LLM generativos a partir de recuperación factual; también funciona para que los LLM tengan conocimiento fuera de su entrenamiento.
  • Acelerador de algoritmos de agrupamiento y visualización.

Proyecciones a baja dimensión

UMAP de primos

UMAP noticias twitterClusters limpios

Ejemplo Clustering/tópicos – Unidad 6 Recuperación de Información

Problemas

  • Sketches binarios sobre la distancia de Hamming.
  • Cuantización basada en:
    • grafo \(k\)nn.
    • grafo HSP.

Búsqueda sin indexamiento

Entre las aplicaciones posibles, no siempre se necesita un índice (preprocesamiento)

  • Archivado de datos.
  • Análisis de datos históricos.
  • Bases de datos que raramente son actualizadas.
  • Agrupamiento.
  • Visualización.

Procesamiento de lenguaje natural

Recursos regionalizados para el Español

Español

Similitud léxica entre regiones

México

Similitud semática entre regiones de México

Problemas de clasificación

Entender el lenguaje y los mensajes escritos en redes sociales.

  • Minería de opinión (análisis de sentimiento): determinar sí algo es positivo :),   neutro :), o   negativo :(

  • Análisis de tópicos: ¿Qué temas hay en un corpus?

  • Carga emotiva de un mensaje: enojo, anticipación, disgusto, miedo, gozo, tristeza, sorpresa, confianza.

  • Identificación de humor, odio, o esperanza, …y un largo etcétera.

Perfilado

  • Predicción indicadores socio-demográficos de los usuarios.
  • Identificación de autoría.
  • Entender como se comportan usuarios.
  • Medición de violencia en redes sociales.
  • Identificación de posibles trastornos mentales.

Competencias PLN

  • IberLEF
  • PAN
  • FIRE
  • SemEval

Clustering y tópicos

  • Clustering de documentos utilizando sentence BERT o BoW.
  • Identificación de tópicos, e.g., LDA, BERT Topic.

Búsqueda

  • Búsqueda de texto completo con modelo léxico:
    • TFIDF
    • BM25
  • Búsqueda densa:
    • Sentence BERT
    • ColBERT

Gracias

Dr. Eric S. Téllez
Investigador SECIHTI-INFOTEC

Aguascalientes, Aguascalientes